Сравнение сервисов для анализа документов AWS Textract, Azure Document Intelligence и Ripper Service от Технологики

Бизнес все чаще и чаще предпочитают отдать искусственному интеллекту извлечение данных из документов: при таком подходе меньше ошибок и выше скорость обработки документов. И все чаще звучит вопрос — каким решением пользоваться и к какому подрядчику пойти за оказанием услуги?

Поэтому мы сделали сравнительный обзор двух популярных решений от лидеров рынка по обработке документов — AWS Textract, Microsoft Azure Document Intelligence и собственного решения Ripper Service. Сравнивали решения по нескольким основаниям: по производительности, по результатам извлечения значений из форм, а также по стоимости.

Надеемся, что данная статья будет полезна руководителям компаний, которые уже задумались о применении ИИ для массовой обработки документов.

Содержание

Методология
Сравнение сервисов
AWS intelligent document processing
Azure AI Document Intelligence
Ripper Service от Технологики
Сравнение производительности сервисов
Результаты извлечения пар ключ-значение из форм
Azure AI Document Intelligence
AWS Textract (формы + таблицы)
Ripper Service
Цены на сервисы
Выводы

логия»

Методология

Мы анализируем работу наиболее популярных на западе сервисов AWS и Azure на основе распознавания англоязычного налогового документа, предоставленного Intuit ProSeries Tax Organizer.

Налоговые документы представляют информацию в структурированном виде: внутри есть полями или «ключи» и связанные с соответствующие значения. Человек может легко интерпретировать такие документы.

Инструменты OCR умеют извлекать текст непосредственно из изображений, что позволяет составить представление о содержании документа, однако этого недостаточно, когда необходимы дальнейшие шаги в анализе документа: сопоставление пар ключ-значение и выгрузка данных в клиентские базы данных.

Сопоставление ключей и значений является наиболее сложным и труднореализуемым процессом. К примеру, налоговые формы в данном примере имеют сложную структуру.

У некоторых значений нет соответствующих ключей. Другие же значения могут иметь несколько ключей из-за структуры таблицы, где метки строк и столбцов определяют поле, несмотря на их пространственное разделение на странице.

Соотнесение ключей со значениями предполагает субъективную интерпретацию макета страницы, пунктуации и стилистических признаков. Пары «ключ-значение» могут быть представлены вертикально или горизонтально, а ключи выделены различными способами, например двоеточиями или жирным шрифтом.

Не редки случаи, когда в pdf-документах, с которыми работает бизнес, поля заполняются динамически. В таком случае сервис извлечения данных должен уметь работать с заполняемыми полями. Это еще одно важное требование для работы с документами.

Сервисов»

Сравнение сервисов

Существует несколько популярных OCR решений, позволяющих извлекать пары ключ-значение из документа. К ним относятся AWS Textract и Azure Document Intelligence. Это лидеры рынка, которым большой бизнес отдает предпочтение.

Однако по нашему опыту данные сервисы имеют определенные ограничения, поэтому мы создали своё решение — Ripper Service, которое обладает более тонкой настройкой, и позволяет найти индивидуальный подход к каждому документу. Перейдем к сравнению.

S»>

AWS intelligent document processing

AWS Intelligent Document Processing — это набор сервисов машинного обучения, позволяющих автоматизировать обработку документов.

Платформа использует оптическое распознавание символов (OCR) и обработку естественного языка (NLP) для чтения и понимания документа и извлечения определенных терминов или слов.

AWS Intelligent Document Processing помогает сократить ручную работу и обнаружить в документах глубокий смысл, обеспечивая более быструю и точную обработку с высокой степенью достоверности. Вот некоторые ключевые особенности AWS Intelligent Document Processing:

Готовые модели: AWS предлагает набор готовых моделей для обработки документов, включая Amazon Textract для извлечения текста и Amazon Comprehend для извлечения информации из текста в документах.
Процессоры обработки документов: AWS Intelligent Document Processing может быть полностью развёрнута с использованием инфраструктуры как кода. А бессерверную инфраструктуру можно развернуть при помощи AWS Cloud Development Kit и организовать, используя визуальные сервисы рабочих процессов с низким кодом, такие как AWS Step Functions.
Извлечение данных: AWS Intelligent Document Processing может извлекать печатный текст, рукописный текст и данные из любого документа.
Технология искусственного интеллекта: AWS Intelligent Document Processing использует ведущие в отрасли технологии машинного обучения, включая NLP-движки Amazon Textract и Amazon Comprehend, без необходимости привлечения штатных специалистов в области ML.

Amazon Textract — неотъемлемый компонент Amazon Web Services (AWS),именно о нём мы и будем говорить в разрезе анализа документов. Textract обладает некоторыми ограничениями:

Pdf-файлы поддерживаются только асинхронными операциями; синхронные и асинхронные операции поддерживают файлы jpeg, png и tiff. Ограничения по размеру гораздо выше для асинхронных операций (500 МБ и 3 000 страниц для файлов pdf и tiff), чем для синхронных операций (10 МБ, 1 страница).
Amazon Textract поддерживает до 15 запросов на страницу для синхронных операций и до 30 запросов на страницу для асинхронных операций.
Невозможно классифицировать документы по типу (паспорт, налоговая декларация, форма 1040, расписание и т. д.)
AWS Textract использует стандартную модель для извлечения данных из ваших конкретных форм. У вас нет возможности улучшить и доработать обобщенную модель для вашей конкретной формы или задачи.
Не извлекает данные из заполняемых/динамических полей.
Кириллица плохо воспринимается AWS Textract.

Чтобы инициировать асинхронные вызовы Textract, документы должны быть сначала загружены в S3 хранилище, т.к. прямая отправка в Textract невозможна. Если ваши данные уже хранятся в S3, это требование может не доставить заметных неудобств. Однако если ваши данные еще не хранятся в S3, этот шаг может занять значительное время.

e»>

Azure AI Document Intelligence

Azure AI Document Intelligence — это облачный сервис, который использует модели машинного обучения для извлечения текста, пар ключ-значение, таблиц и структур из документов.

Платформа может использоваться для автоматизации обработки данных в приложениях и рабочих процессах, а также необходима для совершенствования стратегий, основанных на данных, и расширения возможностей поиска по документам. Вот некоторые ключевые особенности Azure AI Document Intelligence:

Готовые модели: Azure AI Document Intelligence предлагает набор моделей для обработки документов, включая модель Read OCR для извлечения печатного и рукописного текста из PDF-документов и отсканированных изображений, а также модель Layout для извлечения страниц, таблиц и стилей.
Пользовательские модели: Azure AI Document Intelligence позволяет обучать свои собственные модели, отвечающие конкретным бизнес-потребностям и сценариям использования. Пользователи могут размечать и обучать свои модели для автоматизации извлечения данных из структурированных, полуструктурированных и неструктурированных документов.
Извлечение данных: Azure AI Document Intelligence может извлекать текст, пары ключ-значение, таблицы и структуры из различных типов документов, включая печатные и рукописные формы, PDF-файлы и изображения.
Технология искусственного интеллекта: Azure AI Document Intelligence применяет передовое машинное обучение для извлечения текста, пар ключ-значение, таблиц и структур из документов. Для извлечения данных из документов платформа использует технологии оптического распознавания символов (OCR) и понимания документов.
Azure Document Intelligence поддерживает кириллицу.

Работу с сервисом можно начать с готовых моделей или создать собственные модели, адаптированные к вашим документам, локально или в облаке, используя AI Document Intelligence Studio или SDK.

Чтобы извлечь данные с высоким качеством, необходимо обучить собственную модель с помощью инструментария Azure Document Intelligence. Кстати, обучение пользовательских моделей всегда бесплатно.

AI Document Intelligence обладает некоторыми ограничениями:

У Microsoft есть готовая модель для извлечения общих форм, но качество работы этой модели мы находим сомнительным для форм, не входящих в список готовых. Если вы хотите получить данные формы из документа, который не является англоязычной квитанцией, счетом-фактурой, удостоверением личности или визитной карточкой, то придется обучить свою собственную модель.
Готового сервиса общего назначения для извлечения пар ключ-значение не существует.
Обучение своих моделей: можно обучить до 20 шт. в месяц.
Для PDF и TIFF можно обработать до 2000 страниц (при подписке на бесплатный уровень обрабатываются только первые две страницы).
Не извлекает данные из заполняемых/динамических полей.

e»>

Ripper Service от Технологики

Ripper Service — это наш собственный сервис для обработки и извлечения данных из документов. Сервис принимает на вход pdf-документ, а на выходе возвращает JSON-файл с извлеченными значениями и координатами границ целевых полей в формате ключ-значение:

Сравнение сервисов для анализа документов AWS Textract, Azure Document Intelligence и Ripper Service от Технологики
Философия Ripper Service заключается в индивидуальном подходе к каждой форме. Возможности Ripper Service позволяют тонко настраивать и индивидуально работать с любым сложным документом, а также работать с заполняемыми полями документа и документами с кириллицей. Это достигается за счёт использования следующего технологического стека:

OpenCV — библиотека функций программирования преимущественно для компьютерного зрения в реальном времени.
Docotic.Pdf — SDK позволяет разработчикам составлять, отображать, захватывать, аннотировать, очищать, редактировать и печатать PDF-документы и изображения.
AWS Textract Detect Document Text API (опционально) — технология OCR для извлечения текста. В случае необходимости наше решение позволяет